期刊好文 | 大学英语教材词汇复杂度级差分析(文/唐美华、梁茂成)
提要:本文聚焦某大学英语教材的词汇复杂度,考察教材册级之间的差异,运用自动聚类方法对该教材的复杂度等级进行重新划分,并对聚类结果进行验证。研究发现:1)教材在词汇复杂度上大致遵循循序渐进的编写原则,但级差显著递进主要体现在低册级和高册级之间;2)聚类分析结果显示,教材按照词汇复杂度可分为三个类别,但并非对原始6册的均等切分,经分组差异检验证明,聚类所分等级的词汇复杂度呈现由低到高的发展趋势。本文尝试为教材词汇复杂度级差提供一种定量、客观的评价方法,期待对大学英语教材的编写和改编带来指导和借鉴。
关键词:大学英语教材;词汇复杂度;级差;聚类分析
1. 引言
《大学英语教学指南》(2015版)中明确提出,“教材是教学内容的主要载体,也是实现教学目标的基本保证”。一套好的大学英语教材应当把握语言学习规律,根据循序渐进的原则规定学习的梯度。大学英语教材中的阅读文本是学习者获取输入的主要渠道,阅读材料的选择应从易到难、由简单到复杂逐步过渡,体现由浅入深、由少到多的发展过程(束定芳、庄智象 2008)。
本文以国内某套大学英语教材的阅读文本为语料,聚焦词汇复杂度,考察其在教材各册间的变化趋势,同时借助自下而上的聚类方法,对教材的词汇复杂度等级进行自动划分,并对聚类结果进行验证,从而探究该教材在词汇复杂度层面编排的合理性。
2. 文献回顾
文本复杂度是母语与外语阅读教学研究中的重要构念,也是应用语言学领域的重点与难点。Bulté & Housen(2012)将文本复杂度分为相对复杂度(relative complexity)和绝对复杂度(absolute complexity)。相对复杂度指在语言习得和使用过程中,语言项目被学习、加工或言语化时的心理难易度,因学习者的不同而不同,受个体语言发展、语言能力、记忆力、动机等因素的影响。绝对复杂度则指文本自身的复杂度,是从客观量化的角度对语言复杂度加以考察,如一个语言特征或语言系统包含的成分数量、成分之间的交互作用等。本文认同Bulté & Housen(2012)的分类,并将研究对象限定为大学英语教材阅读文本的绝对复杂度。本文主要关注教材文本的词汇复杂度,即目标文本中词汇的深度和广度(Read 2000)。
目前,针对大学英语教材词汇复杂度的实证研究多采用语料库的方法,一般遵循以下两种研究路径。一种研究路径是对不同教材的复杂度进行横向比较,以期找出它们的优势和不足。这类研究多借助Paul Nation教授研发的Range软件,调查教材对特定词表的覆盖率,采用的词表有英国国家语料库(British National Corpus,简称BNC)高频词表、学术词汇表(Academic Word List,简称AWL)和各类大纲词表等(Chujo 2004;DehGhaedi 2013;Hsu 2014;顾艳 2007;周骞2012)。随着语料库语言学和计算机软件的发展,国内学者逐步深化教材间的对比研究,一些研究不再囿于词表覆盖率,开始探讨词汇复现和词组搭配问题(如刘艳红、张军 2015;王同顺、许莹莹 2013)。
另一种研究路径是对同一教材的不同册级进行纵向比较,探讨册级间的差异。目前这类研究数量较少,且大多就个别或少数量化指标数值进行直观比较,如词汇密度和平均句长(顾艳 2007;侯文蕾 2011;周骞 2012)、可读性公式(邓昭春等 2002;刘艳红 2010)、标准词族/形符比(王同顺、许莹莹 2013)等。极少数研究就词汇覆盖和复现问题对教材进行调查,例如,赵勇(2009)以《新视野大学英语》为语料,考察了教材中大纲词汇覆盖、生词密度、生词复现率和课后习题搭配的典型性。结果显示,该教材在前三个层面上的编排基本合理,但在重点词汇搭配的典型性上与本族语使用者存在差异。
以上研究加深了我们对教材文本词汇复杂度的认识,也为词汇复杂度的多维量化研究提供了依据和参照。然而,前人的研究至少存在两点不足。一是软件自身的缺陷。多数研究借助的是Range软件,其底表以词族为单位,将词汇的屈折和派生形式归入同一个词族,其理念是学习者一旦掌握了单词如accept,就自然会使用accepted和acceptance。显然,这对二语学习者来说并非易事。此外,Range软件的统计结果基于未标准化的形次比(type-token ration,简称TTR),对文本长度异常敏感,文本越长,TTR值越小。二是纵向研究匮乏。已有研究未综合考量多维度指标,而是以个别指标的差值为参照对教材词汇复杂度编排的合理性作出推断,有时甚至得出矛盾的结论,难以令人信服(侯文蕾 2011;刘艳红 2010)。鉴于此,本文将词汇复杂度视作多维度概念,综合考察多个指标,对教材发展阶段进行自动聚类,在对结果进行假设验证的基础上,探究教材文本词汇在复杂度编排上的合理性。
3. 研究设计
3.1 研究对象和研究问题
本文的研究对象是某大学英语教材的词汇复杂度。该教材为国内主流的大学英语精读教材之一,是普通高等教育“十二五”国家级规划教材,下文以教材A表示。该套教材共分6册,每册8个单元。本研究的语料取自各单元的阅读文本A,共48篇文本。
一套体系完备的教材在学生学习的不同阶段应当逐级提高文本的复杂度,从而与学生不断提高的语言水平相匹配。因此,本文的研究问题如下:
1)在词汇复杂度的具体维度上,教材A各册级呈现怎样的变化趋势?是否随册级提高而显著上升?
2)基于聚类分析,教材A 的词汇复杂度可以自动分为几个阶段?各阶段之间的词汇复杂度是否呈现由低到高的发展趋势?
3.2 研究步骤
本研究旨在通过对教材A文本词汇复杂度的多维量化分析,判断其在词汇层面编排的合理性。首先收集文本,对语料进行校对和清理。然后确定指标,利用检索软件进行提取。之后借助方差分析,对册级间的词汇复杂度进行差异显著性检验。最后,基于聚类分析对教材A进行自动分级,并对聚类结果进行检验,探究教材A在词汇复杂度层面的内部发展趋势。
3.3 数据收集与分析
词汇量是影响文本复杂度的因素之一。Bulté et al.(2008)认为,词汇密度(lexical density,简称LD)、词汇丰富性(lexical variation,简称LV)和词汇复杂性(lexical sophistication,简称LS)也是词汇复杂度的主要维度。因此,我们将从这四个方面对教材A的文本进行考察。
词汇量指文本的长度,本文主要采用形符数(token)和类符数(type)进行统计。形符类似于我们日常说的“词”,如“一篇500词的文章”;类符指文本中任何一个独特的词形。换言之,一个文本中重复出现的形符只能记作一个类符。因此,诗句My love is like a red, red rose 中共有8个形符,7个类符(梁茂成 2016)。
词汇密度指文本中实词的比例(Read 2000)。本文采用Ure(1971)关于LD的计算公式,即LD=(实词数量/词汇总量)×100,这里的实词指具有稳定词汇意义的词语,包括名词、实义动词(除去情态动词、助动词等)、形容词和由形容词派生而来的副词(如particularly等)。
词汇丰富性指文本的词汇使用范围,其传统计算方法是TTR。但是,鉴于TTR对文本长度较为敏感,随着文本长度的增加,其数值反而会下降,研究者提出了许多新的测量指标。本文采用吉罗指数(Guiraud’s Index,又称RTTR)(Guiraud 1960)对教材文本的词汇丰富性进行测量。
词汇复杂性指文本中不常用词汇或低频词的比例。Read(2000)提出了计算LS的公式,即LS=复杂词(低频词)的词族数/文本总词族数。但是,该计算方法对文本长度较敏感,即文本越长,复杂性越低。梁茂成(2011)用低频词与高频词之比来衡量词汇复杂性,有效地克服了上述弊端。本文参照梁茂成(2011)的研究,依据《大学英语课程教学要求》(以下简称《教学要求》)规定的三级词表,在统计教材对各级词表的覆盖的基础上,采用如下公式来计算文本的词汇复杂性:LS=[(较高要求词汇数+更高要求词汇数)/一般要求词汇数]×100,所得数值越大,文本的词汇复杂性就越高。
词汇复杂度各维度指标及其计算公式如表1所示。
本研究首先借助方差分析对教材A不同册级间的词汇复杂度指标进行差异显著性检验,然后以各维度指标为基础,采用层次聚类分析法,以树状图的形式呈现教材A的自动类别划分,最后采用方差分析和箱线图对聚类结果的有效性进行检验,考察各类别之间的复杂度发展趋势。
4. 结果与讨论
4.1 教材A册级间的词汇复杂度变化趋势和差异显著性分析
借助上文提及的工具和计算公式,我们得到了教材A各册的形符数、类符数、LD、LV和LS的均值及标准差,统计数据如表2所示。
在形符数和类符数上,除第4册的类符数均值有轻微下降外,6册教材文本的均值呈逐册递增的趋势,第1册的均值最小,第6册的均值最大。这符合我们的预期和教材编写的相关原则。同时,我们也应该认识到,教材编写涉及的因素繁多,而词汇量是其中最易操作和控制的指标,因而呈现的结果较易令人满意。
在词汇密度指标上,6册的均值大小顺序比较混乱,第1册和第5册的均值较小,第4册的均值最大,而第3册和第6册的均值相同。经仔细观察可知,教材A册级间的差异较小,尽管第1册和第5册的均值较低,但这两册的标准差(分别为4.32和5.74)较大。因此,很可能是这两册的文本在LD指标上存在较大悬殊,导致指标均值出现下滑。
在词汇丰富性指标上,6册的均值排序为A1<A2<A4<A3<A5<A6,除第4册的均值出现轻微下降外,教材A的词汇丰富性随着册级的升高均有上升,这种编排符合我们对理想教材的要求。
在词汇复杂性指标上,6册的均值排序为A1<A2<A3<A5<A4<A6,除第5册的均值略低于第4册外,教材A的词汇复杂性基本呈逐册递增的变化趋势。换句话说,第1册中的低频词最少,高频词最多,随着学生年级和水平的提高,低频词比例逐册递增。这种安排亦符合循序渐进的教材编排原则。
我们已对教材A各册的词汇复杂度指标进行了直观比较,现在利用R语言中的multcomp包进行册级间方差分析和多重比较,结果如图1所示。有相同字母的册级(用箱线图表示)说明其均值的差异不显著,如在图1的形符数箱线图指标上,A1箱线图上方的字母为a,A2、A3和A4均为a和b,A5为b,表明第1册和第2、3、4册在该指标上无显著差异(有相同字母a),但与第5册存在显著差异(无相同字母)。
从图1可以看出,在显著水平为0.05的条件下,在形符数上,前4册均不存在显著差异,第1册的形符数显著低于第5、6册,第2、3、4、5册的形符数显著低于第6册;在类符数上,前2册无显著差异,第1册的类符数显著低于第3、4、5、6册,第2册的类符数显著低于第5、6册,第3、4、5册的类符数显著低于第6册;在词汇密度上,6册之间均无显著差异;在词汇丰富性上,前4册无显著差异,第1册的词汇丰富性显著低于第5、6册,第2册的词汇丰富性显著低于第6册;在词汇复杂性上,前5册无显著差异,只有第1册的词汇复杂性显著低于第6册。
可见,在教材编排过程中,编写者已经意识到要拉开词汇复杂度梯度,在形符、类符指标上控制得最好,保证了词汇量的逐级上升。同时,在词汇丰富性和复杂性指标上,编写者也有意遵循复杂度递进原则,主要体现在第1册的词汇丰富性和复杂性显著低于第6册。但是,教材A仍存在不少不足之处。在6个册级中,词汇密度均未出现显著提高,即随着册级的提高,阅读文本中实词的递增并不显著。同时,如果将不同册级视作复杂度的不同发展阶段,在第2、3、4册中,相邻册级间的差异均未达到显著水平,说明教材在文本选择和编排上仍需改进和调整。
4.2 教材A文本词汇复杂度聚类分析
聚类分析主要是为了辨别事物在某些特性上的相似或不同之处,并按照这些特性将事物划分为不同类别,使同一聚类内的事物具有高度同构性,而不同类别的事物具有高度异质性,也就是将样本分成几个互相没有交集的类别(林震岩 2007)。本研究中教材A各册级是需要聚类的数据点,层次聚类分析法依据词汇复杂度各指标间的量化差异,通过自动计算的方法,将教材A的6个册级划分为若干发展等级。本文采用欧式(Euclidean)距离矩阵计算距离,采用Ward离差平方和法(Ward’s minimum variance method)计算聚类。其基本思想基于方差分析,如果分类恰当,则同类矩阵元素的离差平方和应当较小,不同类别的矩阵元素的离差平方和应当较大(邵斌等 2017)。根据以上算法,借助R语言中的pvclust数据包,可得到教材A各册级的聚类图,如图2所示。
图2显示,每个节点周围有3个数字:节点下方的数值代表聚类顺序,可见共进行了4次聚类运算;节点上方的两个数值代表两种自助抽样算法(bootstrapping)计算出的p值,即AU(左)和BP(右)。AU的p值更能说明数据是否支持聚类,p值越接近100,说明聚类效果越好。关于聚类数的确定,常用的判别标准是类与类之间的分野应尽量清楚,类别之间的距离最大,类别内部的距离最小。依据图2,我们可以将教材A划分为三类,分别是第1、2册(A12)、第3、4、5册(A345)和第6册(A6)。
聚类分析属于探索性分析,其结果有助于直观化变量之间的相关关系,但是需要借助验证性统计加以验证。此处同样借助方差分析来帮助确定聚类类别间的差异显著性,同时探究类别间词汇复杂度变化的方向性。
方差分析多重对比结果(图3)显示,除词汇密度外,A12、A345、A6在其余指标上均存在显著差异,且三个类别之间呈依次显著递增的发展趋势。由此可见,就词汇复杂度而言,教材A实际上可以分为三个发展等级,前两册为较低等级,中间3册为中间等级,最后一册为较高等级。应该说,该教材的这种编排是比较合理的,遵循了由低向高、由简单向复杂发展的编写要求。但是,教材A的前言指出,1—4册供修读一般要求的学生使用,5—6册供修读较高要求的学生使用。而我们并未发现第4册和第5册之间有显著的复杂度递增趋势。如果教材A能够拉开各册级之间的复杂度梯度,真正实现复杂度逐册递增,应当能够更好地体现该教材编写的科学性和严谨性,从而更加适应学生逐步提高的语言水平。
5. 词汇复杂度研究对英语教学和教材
改编的启示
教材文本词汇复杂度研究能够有针对性地促进英语教材的合理编排,旨在为编写出符合教学实际与学生需求的高质量教材提供参考和依据。
一方面,本研究能够为大学英语教学提供指导和帮助。对于已经选定或正在使用的教材,本研究能够帮助教师对其文本的词汇复杂度进行对比,通过数据量化呈现,教师可以根据实际的教情和学情对课文的教学顺序进行调整或者选择性教学。同时,教师有必要了解教材与《教学要求》规定的词表之间的覆盖情况,如果教材词汇与大纲词汇之间出现断层,那么教师需要在日常教学中适当拓展必要的词汇教学,通过补充阅读资料或提供附加词汇表的方式,加强学生的词汇学习。Laufer & Ravenhorst-Kalovski(2010)指出,95%的词汇覆盖率是对目标文本进行充分阅读理解的阈值,而如果想获得最佳理解,则需要达到98%的词汇覆盖率。以教材A为例,假使学生掌握了《教学要求》中的一般要求词汇,只有第1册的词汇覆盖率能够达到95%以上。换句话说,一般学生能够理解第1册,但若要做到充分理解其余5册,会在词汇上存在困难。因此,教师在讲授教材A时,尤其需要注意对相关词汇的补充教学。此外,鉴于语言的动态发展特性,教材中的词汇需要不断更新和升级。教师在教学中可以考虑增加当前言语交际中的高频词汇和高分布词汇,也可适度补充一些代表性词表,如英语通用词表(General Service List,简称GSL)、学术词汇表、学术语块表(Academic Formulas List,简称AFL)等,帮助学生掌握现实言语交际活动所需的核心词汇。
另一方面,本研究能够为教材编写和改编提供参照。教材文本词汇应该随着册级的提高,遵循由简单到复杂的发展趋势。同时,为了保证教学发生在学生的最近发展区,教师需要在学生学习的不同阶段为其提供与语言水平相匹配的文本。因此,教材编写者需要注意拉开教材各册级,尤其是中间册级的复杂度梯度,引导学生有效学习。具体来说,在教材编写之初,编写者可以借助语料库语言学和自然语言处理领域的最新成果,利用文本自动处理软件快速、客观地获取目标文本的词汇复杂度信息,从而对待选材料进行量化排序。在教材文本选定之后,可以借助方差分析、聚类分析等多元统计方法,就教材复杂度分级合理性进行检验,对少数复杂度与册级不符的文本根据实际需要加以调整或改编。此外,编写者还要注意文本中各类词性词汇的比例和文本对大纲词表的覆盖情况,必要时可采取词汇替换或增补词表附录的方式,保证教材内部词汇复杂度的循序渐进。
6. 结语
本文借助自动聚类分析法,对教材文本的词汇复杂度发展等级进行自动划分和验证。首先对教材文本词汇维度各指标的变化趋势进行描述性统计,并对教材册级间的差异进行显著性检验,然后借助层次聚类法,自下而上地对教材的发展等级进行聚类切分,并通过方差分析多重比较对聚类结果进行检验。研究发现,除词汇密度指标外,教材A的编写者大致遵循了复杂度递进的原则,但复杂度的显著提高主要存在于低册级(第1、2册)和高册级(第5、6册)之间。经自动聚类后,教材A的词汇复杂度实际分为三个等级,分别是第1、2册,第3、4、5册和第6册,且多重比较显示,这三个等级之间的复杂度呈现由低到高的发展趋势。
本文是对教材文本词汇复杂度发展阶段自动切分的一次尝试,鉴于词汇复杂度只是文本复杂度的一个重要维度,后续研究可在词汇、句法、语篇等多个层面进行考察,以期对教材复杂度分级作出全面、客观、公正的评价。
注:本文选自《外语教育研究前沿》2021年第1期第61-68页。由于篇幅所限,参考文献及注释已省略。
作者简介:
唐美华,江苏师范大学外国语学院副教授,北京外国语大学中国外语与教育研究中心博士生。主要研究领域:语料库语言学。
梁茂成,北京航空航天大学外国语学院教授,博士生导师。主要研究领域:语料库语言学。
相关阅读:
【提示】在线阅读/下载:
1)点击“阅读原文”在期刊网页(http://www.celea.org.cn/class/25)阅读本期刊讯;
2)在CNKI下载论文全文:
https://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=WYQY(复制网址,粘贴到浏览器打开)
【声明】感谢《外语教育研究前沿》编辑部授权iResearch发布此文。本文版权归《外语教育研究前沿》编辑部及作者所有。其他任何学术平台若有转载需要,可致电010-88819493或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。